亚洲无码中文字幕hd,日韩精品无码人成视频手机,国产人成亚洲第一网站在线播放,亚洲综合视频在线观看

冷數(shù)據(jù)、熱數(shù)據(jù),數(shù)據(jù)也有溫度?

發(fā)布時(shí)間:2022-09-09 閱讀量:199

v2-87862175212fa6083bd7ba2a5c52e9e8_1440w.jpg

隨著信息技術(shù)的逐漸發(fā)展,數(shù)據(jù)出現(xiàn)指數(shù)型的增長(zhǎng)。我們知道數(shù)據(jù)的種類(lèi)很多,分類(lèi)方式也有很多種,有以用戶對(duì)象來(lái)分類(lèi)的,如政務(wù)數(shù)據(jù)、行業(yè)數(shù)據(jù)、個(gè)人數(shù)據(jù);有以數(shù)據(jù)存儲(chǔ)形式分類(lèi)的,如先前推文介紹過(guò)的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。還有一種分類(lèi)方法,則是將數(shù)據(jù)分為冷數(shù)據(jù)、溫?cái)?shù)據(jù)和熱數(shù)據(jù),難道數(shù)據(jù)還有溫度?

數(shù)據(jù)為什么要區(qū)分“冷”和“熱”?

根據(jù)數(shù)據(jù)被訪問(wèn)使用的頻次,數(shù)據(jù)可以被分為熱數(shù)據(jù)、溫?cái)?shù)據(jù)和冷數(shù)據(jù)。顯然數(shù)據(jù)肯定是沒(méi)有溫度的,那么為什么會(huì)有“冷”、“熱”的說(shuō)法呢?

熱數(shù)據(jù)

熱數(shù)據(jù)是需要被計(jì)算節(jié)點(diǎn)頻繁訪問(wèn)的在線類(lèi)數(shù)據(jù),比如可以是半年以?xún)?nèi)的數(shù)據(jù),用戶經(jīng)常會(huì)查詢(xún)它們,適合放在數(shù)據(jù)庫(kù)中存儲(chǔ),比如MySql、MongoDB和HBase。

冷數(shù)據(jù)

冷數(shù)據(jù)是指離線類(lèi)不經(jīng)常訪問(wèn)的數(shù)據(jù),用于災(zāi)難恢復(fù)的備份或者因?yàn)橐袷胤梢?guī)定必須保留一段時(shí)間,比如企業(yè)備份數(shù)據(jù)、業(yè)務(wù)與操作日志數(shù)據(jù)、話單與統(tǒng)計(jì)數(shù)據(jù)。通常會(huì)存儲(chǔ)在性能較低、價(jià)格較便宜的文件系統(tǒng)里,適用于離線分析,比如機(jī)器學(xué)習(xí)中的模型訓(xùn)練或者大數(shù)據(jù)分析。

熱數(shù)據(jù)冷數(shù)據(jù)圖示.png

熱數(shù)據(jù)和冷數(shù)據(jù)對(duì)比01.jpg

圖:冷數(shù)據(jù)和熱數(shù)據(jù)的區(qū)別,來(lái)源于微博@聯(lián)想企業(yè)級(jí)服務(wù)

總結(jié)一下,熱數(shù)據(jù)就是訪問(wèn)量多的數(shù)據(jù),而冷數(shù)據(jù)則基本沒(méi)有什么存在感和訪問(wèn)量。比如在訂單管理中,熱數(shù)據(jù)就是指3個(gè)月以?xún)?nèi)的訂單數(shù)據(jù),查詢(xún)時(shí)效性較高;而冷數(shù)據(jù)就是指1年前的訂單數(shù)據(jù),只會(huì)有偶爾的查詢(xún)需求,其他時(shí)間幾乎不會(huì)被用到。

其實(shí)區(qū)分冷熱數(shù)據(jù)的根本目的,在于能節(jié)省數(shù)據(jù)存儲(chǔ)成本和提升在線數(shù)據(jù)查詢(xún)性能,即控制成本。

為什么這么說(shuō)?因?yàn)橥ǔG闆r下,為了支持熱數(shù)據(jù)的操作特性,需要有較好的硬件配置,比如高性能CPU、大內(nèi)存、SSD硬盤(pán)等等。隨著時(shí)間的推移,系統(tǒng)里會(huì)積累越來(lái)越多的歷史數(shù)據(jù),如果依然采用高配置機(jī)器來(lái)存放這些使用頻率非常低的數(shù)據(jù),勢(shì)必會(huì)帶來(lái)非常高的成本。當(dāng)然,如果數(shù)據(jù)量很小或者不計(jì)成本,那完全不需要考慮冷熱區(qū)分,采用一個(gè)單體系統(tǒng)就可以應(yīng)對(duì)所有事情了。

數(shù)據(jù)如何冷熱分離?

相信看到這里,大家對(duì)冷數(shù)據(jù)、溫?cái)?shù)據(jù)和熱數(shù)據(jù)的概念已經(jīng)很清晰了,那么有人可能會(huì)好奇,對(duì)于不同“溫度”的數(shù)據(jù),平時(shí)是如何存儲(chǔ)的呢?


由于冷數(shù)據(jù)和熱數(shù)據(jù)的訪問(wèn)頻次不同,就導(dǎo)致了在數(shù)據(jù)庫(kù)搭建的各自不同:熱數(shù)據(jù)因?yàn)樵L問(wèn)頻次需求大,效率要求高,所以就近計(jì)算和部署;冷數(shù)據(jù)訪問(wèn)頻次低,效率要求慢,可以做集中化部署,而基于大規(guī)模存儲(chǔ)池里,可以對(duì)數(shù)據(jù)進(jìn)行壓縮、去重等降低成本的方法。


總結(jié)成一句話就是:熱數(shù)據(jù)就近計(jì)算,冷數(shù)據(jù)集中存儲(chǔ)。


從存儲(chǔ)形式來(lái)說(shuō),一般情況冷數(shù)據(jù)存儲(chǔ)在磁帶、光盤(pán),目前發(fā)展比較好的是藍(lán)光光盤(pán)。熱數(shù)據(jù)一般存放在SSD中,存取速度快,而溫?cái)?shù)據(jù)可以存放在7200轉(zhuǎn)的硬盤(pán)。


目前比較常見(jiàn)的冷熱分離方案是將冷熱數(shù)據(jù)分離到兩套不同的系統(tǒng),這兩套系統(tǒng)擁有不同的存儲(chǔ)特性、訪問(wèn)方式等,從而在保證熱數(shù)據(jù)訪問(wèn)性能的同時(shí),將冷數(shù)據(jù)的成本降低下來(lái)。

相比單體系統(tǒng)而言,將冷熱數(shù)據(jù)分離到兩個(gè)系統(tǒng)中,必然會(huì)帶來(lái)整體的復(fù)雜性,需要在性能、成本、復(fù)雜度等因素之間做的一個(gè)權(quán)衡。實(shí)踐中,通常需要結(jié)合具體的業(yè)務(wù),考慮下面幾件事:


  • 冷熱數(shù)據(jù)系統(tǒng)的選型

  • 確定冷熱數(shù)據(jù)分割線

  • 如何進(jìn)行數(shù)據(jù)的遷移

  • 如何應(yīng)對(duì)跨系統(tǒng)的查詢(xún)


數(shù)據(jù)作為企業(yè)的核心資產(chǎn)之一雖然已受到廣泛的認(rèn)可和重視,但是分析技術(shù)的落后尚不具備充分提取冷數(shù)據(jù)價(jià)值的能力,因此很多公司對(duì)利用率高的熱數(shù)據(jù)重視而忽視冷數(shù)據(jù),這也符合常規(guī)企業(yè)成本的考量。隨著數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)的進(jìn)步,歷史數(shù)據(jù)的可用價(jià)值將得到顯著的提升,這樣冷數(shù)據(jù)的存儲(chǔ)需求會(huì)迎來(lái)快速增長(zhǎng)。隨著技術(shù)發(fā)展,會(huì)有越來(lái)越多的系統(tǒng)走向冷熱分離系統(tǒng),從而簡(jiǎn)化整體的復(fù)雜性,在業(yè)務(wù)層表現(xiàn)為統(tǒng)一的訪問(wèn)方式。

更多資訊,請(qǐng)關(guān)注“成都吉福匯”,服務(wù)熱線:400 028 4366/028-85538251

丰县| 班戈县| 竹北市| 铁岭县| 泰来县| 富源县| 博罗县| 朝阳市| 乌审旗| 延吉市| 太和县| 汤阴县| 甘南县| 泰安市| 时尚| 株洲市| 西盟| 屏边| 忻城县| 应城市| 华蓥市| 剑阁县| 霍城县| 包头市| 文登市| 皋兰县| 遂宁市| 张北县| 墨竹工卡县| 北海市| 沁阳市| 西林县| 昔阳县| 永州市| 新龙县| 鹤岗市| 子洲县| 香格里拉县| 安平县| 门源| 新闻|